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Beschreibung 

Verfahren zum Erzeugen und/oder Aktualisieren von Lern- 
und/oder Teststichproben 

5 

Die Erfindung betrifft ein Verfahren zum Erzeugen und/oder 
Aktualisieren von Lern- und/oder Teststichproben fur die Op- 
timierung von automatischen Lesern fur Sendungsauf schrif ten 
mit adaptiven Klassif ikatoren. 

10 

Fur den Prozess der postalischen Automat isierung spielt neben 
der eigentlichen Sortiermaschine das Lesen der Adressen eine 
zentrale Rolle. Erst wenn die postalische Adresse einer Sen- 
dung ermittelt worden ist, kann diese Postsendung in einer 
15 Sortiermaschine in das richtige Each sortiert werden. 

Der Verarbeitungsprozess zum Lesen einer Adresse besteht aus 
einer Reihe von adaptiven Verarbeitungsschritten, die in 
Bildaufnahme, Lokalisieren des Adressblocks , Segmentierung 
20 des Adressblocks in Zeilen und Worter, . Zeichen- und/oder 

Worterkennung und abschlieSender Abgleich mit einer Adressda- 
tenbank auf gegliedert werden kann. 

Wenn die Adress information nicht automatisch vom Lesesystem 
25 ermittelt worden isty oder nur Telle der notwendigen Informa- 
tionen gelesen werden, wird diese Sendung zu einem manuellen 
Bearbeitungsplatz gesendet (Videokodieren) . Hier wird der 
Oder die f ehlenden Adresseintrage durch Videokodierkraf te ma- 
nuell eingegeben. 

30 

Das Ziel eines jeden Adresslesesystems ist es deshalb, sehr 
hohe Leserate zu erreichen, um den manuellen Aufwand beim Vi- 
deokodieren moglichst klein zu halten. Um diese hohe automa- 
tisierte Leserate zu erreichen, ist zum Adaptieren an die zu 
35 lesenden Sendungsauf schrif ten eine Menge von Domanenwissen 
fiir jeden einzelnen Verarbeitungsschritt notwendig. 
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Ein groSer Anteil der in einem Adressleser auftretenden Ver- 
arbeitungsschritte wie z.B. Zeichen-, Wort-, und Schriftart- 
Erkennung basiert auf adapt iven Klassif ikationsverf ahren. Das 
alien adapt iven Verf ahren gemeinsame Grundprinzip ist das 
Lernen von zuvor gesammelten Mustern, deren Eigenschaf ten in 
quantif izierbare Merkmals- oder Featuresatze abgebildet wer- 
den. Diese erlauben im weiteren Verlauf Ruckschlusse auf die 
Klassenzugehorigkeit . Deshalb kommt es bei adaptiven Verf ah- 
ren grundsatzlich zu zwei Arbeitsphasen: 

a) der Optimierungsphase, bestehend vorzugsweise aus 
Lern- und Testphase, 

b) der Kannphase . 

Wahrend der Optimierungsphase muss zu jedem Merkmalssatz ei- 
nes Musters, das je nach Aufgabe z.B. einem Zeichen, einem 
Wort Oder einer Adresse besteht, seine Bedeutung in Form der 
Sollinformation hinzugefugt werden, damit die Bestimmungsgro- 
Sen des Klassif ikationssystems optimal eingestellt werden 
konnen. Diese Phase, in der sich das System auf die optimale 
Parameter-Einstellung hinbewegt, lauft vorzugsweise in zwei 
Stufen ab, wobei in der Lernphase die Grundeinstellung der 
Parameter vorgenommen wird, wahrend in der Testphase eine 
Feinjustierung der Parameter erf olgt . In der Kannphase wird 
dann nur noch der Merkmalssatz eines Musters benotigt, aus 
dem das Klassif ikationssystem nach MaSgabe der abgespeicher- 
ten Parameter die Klassenzugehorigkeit ableitet, 

Der groSte entwicklungstechnische Auf wand zur Realisierung 
eines Klassif ikationssystems steckt in der Lern- und Testpha- 
se, die jeweils wiederum in zwei Hauptaktivitaten aufgeteilt 
werden kann. Zunachst einmal muss eine Stichprobe prapariert 
werden, die die Erkennungsauf gabe hinreichend gut reprasen- 
tiert. Dann' erf olgt die eigentliche Adaption des Klassif ika- 
tionssystems , die sich je nach Klassif ikationsmethode und 
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Klassif ikatordesign auf die Optimierung der zu Grunde liegen- 
den Bestimmungsgrofien wie z.B. Optimierung der Klassif ikator- 
koef f izienten beim Polynotnklassif ikator , Optimierung der Ge- 
wichtsfaktoren beim Neuronalen Netz oder der Auswahl der ef- 
5 fizientesten Ref erenzvektoren beim Nachstnachbar- 
Klassif ikator konzentriert . 

Wahrend der zweite Aspekt der Lern- und Testphase weitgehend 
automatisiert ablaufen kann, da ihm im allgemeinen wohl defi- 
10 nierte mathematische Methoden und Optimierungsverf ahren 

zugrunde liegen, verbirgt sich hinter dem ersten Aspekt ein 
hoher Auf wand an Planungs-, Recherchier- und Kontrollarbeit , 
die nicht selten zum eigentlichen Flaschenhals der adaptiven 
Losungsmethodik wird. 

15 

Zur Zusammenstellung der Stichproben werden nach dem Stand 
der Technik vor Ort grofie Mengen von Sendungen (Life-Mail) 
gesammelt und durch das sogenannte Labeln mit der Sollinfor- 
mation (Bedeutung der Auf schrif ten, Layout -Angaben) manuell 
2 0 versehen. Es muss also von einem Bild auf die urspriingliche , 
verloren gegangene Sollinf ormation/Bedeutung riickgeschlossen 
werden. (Jiirgen Schurmann: Pattern Classification, Verlag: 
John Wiley&Sons, Inc., 1995, Chapter „ Introduction Learn- 
ing ^\ pp. 17 - 21) 

25 

Der Vorgang der Zusammenstellung der Stichprobe ist aus ver- 
schiedensten Griinden von entscheidender Bedeutung fur das au~ 
tomatische Erkennen, da sich ihre Qualitat unmittelbar in der 
Leistungsfahigkeit des nachfolgend adaptierten Klassif ikati- 

30 onssystems niederschlagt . Spiegelt die jeweilige Stichprobe 
die betrachtete Leseaufgabe hinreichend gut wider, wird sich 
auch in der Kann- Phase eine gute Leseleistung fur das breite 
Spektrum der vorkommenden Muster einstellen. Ist die Stich- 
probe zu eng selektiert, hat .man in der Kannphase auch nur 

35 fur dieses eingeschrankte Spektrum gute Performance zu erwar- 
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ten und erreicht nicht die erwartete Performance fur den Rest 
der auftretenden Muster. Dieser Aspekt der hinreichend umfas- 
senden Stichprobe korreliert unmittelbar mit dem Begriff der 
Reprasentativitat einer Stichprobe aus der mathematischen 
Statistik. 

Urn eine qualitativ hochwertige und representative Stichprobe 
zu erhalten, sind eine Reihe von Kriterien zu erfullen. 
Grundvoraussetzung fur eine gute Lern- und Teststichprobe 
ist, dass alle zu lernenden Formen einer Musterklasse in aus- 
reichendem MalSe vorhanden sind. Schon das ist oft eine gar 
nicht so leicht zu erfullende Bedingung, da ublicherweise 
Aufgabenstellungen aus einer speziellen Anwendung kommen, die 
nur einen Ausschnitt einer Gesamterkennungsauf gabe darstellt. 
So haben z.B. im Bereich der Schrif terkennung im postalischen 
Bereich zum Zeitpunkt einer Klassif ikatoradaption gewisse 
Fonts (Schrif tarten) , Drucktechniken oder Druckgerate den 
Vorzug, die nur einen limit ierten Ausschnitt des gesamten 
' Spektrums darstellen. Im Verlaufe der Sendungsauf schrif tenle- 
serlebensdauer schieben sich viel leicht andere Fonts und 
Drucktechniken in den Vordergrund und miissen trotzdem noch 
hinreichend gut erkannt werden. Dieser Aspekt variiert auch 
oft beim Einsatz solcher Techniken in verschiedenen nationa- 
len Bereichen. In einem hoch-technisierten Land kommen ganz 
andere Fonts und Druck-/Schreibgerate zum Einsatz, als in ei- 
nem Schwellenland. Dies erfordert eine uberaus vorausschauen- 
de Zusammenstellung der Stichprobe und moglichst breite Basis 
fiir die Mustergenerierung . 

Als nachstes muss die einem Muster zugeordnete wahre Bedeu- 
tung stimmen. Bekommt namlich ein adaptives System zu haufig 
die falsche Klassenzugehorigkeit zu einem Muster zugeordnet, 
dann wird es auch in der Kannphase vermehrt die falsche Ent- 
scheidung treffen, wenn entsprechende Muster vorgefiihrt wer- 
den. Das System ist eben adapt iv und lernt auch Fehlerhaf tes, 
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wenn man es ihm anbietet . Je kleiner die Fehlkennungen in der 
Lern- oder Teststichprobe sind, desto besser ist auch die 
Leistungsfahigkeit des entwickelten Klassif ikationssystems . 

Ein weiterer Aspekt hangt direkt mit der Generierung der 
Merkmalssatze zusammen. Ublicherweise werden .die Merkmalssat- 
ze mit den in der vorhandenen Lesesoftware enthaltenen Erken- 
nungsalgorithmen generiert, da die Umfange meist nicht uner- 
heblich sind (z.B. mehrere tausend Exemplare pro Zeichen bei 
der Zeichenerkennung) , und die Merkmale moglichst realitats- 
nah sein sollen. Die vorhandenen Algorithraen arbeiten aber 
durchweg nicht fehlerfrei. So kommt es z.B. bei der Zeichen- 
segmentierung zu fehlerhaften Segmenten, die statt eines Zei- 
chens zum einen nur Zeichenbruchstucke oder zum anderen mehr 
als ein Zeichen enthalten oder auch manchmal nur Storinforma- 
tion, die fiir eine Adaption allesamt nicht nur irrelevant, 
sondern massiv storend sind, da sie das Klassif ikationssystem 
regelrecht in die Irre fuhrten. 

Innerhalb eines Mustererkennungsprozesses laufen aulSerdem ei- 
ne ganze Reihe von Verarbeitungsschritten ab, die nicht 
sichtbar determiniert und erfassbar sind, sondern summarisch 
statist isch behandelt werden miissen. Dazu zahlen z.B. Quanti- 
sierungef fekte durch Binarisierungen, Kontrastvariationen 
durch verschiedenfarbige Papieruntergrunde, Rundungsef fekte 
durch unterschiedliche Auflosizngs- und Rasterisierungsalgo- 
rithmen bei Scan- und Druckgeraten, sowie Scan- und Druckqua- 
litatsschwankungen durch Alter und unterschiedlichen War- 
tungszustand der Gerate. 

Befindet sich der automatische Leser (OCR) im Lesebe- 
trieb/Kannphase, so k6nnen sich die Eigenschaf ten der gelese- 
nen Sendungen Sndern, so dass der automatische Leser nicht 
mehr optimal arbeitet. Damit er den geanderten Bedingungen 
wieder angepasst werden kann, ist eine neue oder aktualisier- 
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te Stichprobe notwendig, mit welcher der Leser optimiert 
wird, d,h. es muss wieder aufwandig eine Stichprobe wie be- 
schrieben zusammengestellt warden. 

Der Erfindung liegt die Aufgabe zugrunde, ein Verfahren zum 
Erzeugen und/oder Aktualisieren von Lern- und Teststichproben 
fur die Optimierung von automat ischen Lesern fur Sendungsauf- 
schriften mit adaptiven Klassif ikatoren zu schaffen, mit dem 
wahrend des Lesebetriebes automat isch Lern- und/oder Test- 
stichproben erzeugt und/oder aktualisiert werden- 

Erf indungsgemaS wird die Aufgabe durch die Merkmale des An- 
spruches 1 gelost. 

Durch die Schritte 

- Lesen von drahtlos lesbaren und beschreibbaren, auf oder in 
der Sendung befindlichen Speichereinheiten zusatzlich zum 
automatischen optischen Lesen, 

- wenn aus einer Speichereinheit Zieladressangaben gelesen 
und identif iziert wurden, abspeichern dieser Daten als 
Zieladresssolldaten zusammen mit dem auf genommenen Abbild 
der Sendungsoberf lache in einer Stichprobendatenbank, 

ist es moglich, ohne erheblichen manuellen Aufwand Lern- 
und Teststichproben zur Optimierung automatischer optischer 
Leser (OCR) zu erstellen. 

Vorteilhafte Ausges.taltungen der Erfindung sind in den Unter- 
anspruchen dargestellt . 

So ist es vorteilhaft, ein Signal zur Optimierung des automa- 
tischen optischen Lesers zu erzeugen, wenn eine bestimmte An- 
zahl von automatisch erzeugten Eintragen in der Stichproben- 
datenbank erreicht ist und/oder eine festgelegte Zeitspanne 
seit der vorherigen Optimierung uberschritten wurde. 



* • 
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Vorteilhaft ist es auch, die Speichereinheiten als RFID-Tag 
auszufiihren, d.h. sie warden mittels Funkwellen beschrieben 
und gelesen. 

5 Da es vorteilhaft ist, wenn die Solldaten in der Stichprobe 
in Textform vorliegen, kann bei gespeicherten Adressdaten in 
kodierter Form automatisch der Adresstext aus einem Adress- 
worterbuch mit alien Varianten ermittelt und in die Stichpro- 
bendatenbank eingetragen werden. 

• • 

10 

AnschlieSend wird die Erfindung in einem Ausf uhrungsbeispiel 
anhand der Zeichnung erlautert . 

Dabei zeigt 

15 FIG 1 ein Flussbild des Verf ahrensablauf es . 

Der Einsatz von RFID-Tags, insbesondere von passiven RFID- 
Tags, zum Kennzeichnen von Sendungen ist schon seit langerem 
bekannter Stand der Technik (US 3 750 167, US 6 557 758 Bl) . 
2 0 Sie dienen dazu, die Sendungen beriihrungslos mittels Radio- 
wellen zu identif izieren . Zusatzlich zu den Identif ikations- 
daten konnen die RFID-Tags auch weitere Daten, wie z.B. Ziel- 
adressangaben beinhalten. 

Wenn die Sendungen in das Verteilsystem (z.B. Postdienst) ge- 
2 5 langen, werden jeweils die die Zieladressen aufweisende Sen- 
dungsoberf lache mittels einer Kameraanordnung aufgenommen und 
abgespeichert , um in einen OCR-Leser die Zieladresse zu le- 
sen. Gleichzeitig erfolgt das drahtlose Lesen des RFID-Tags, 
der sich in oder auf der betreffenden Sendung befindet 1. 
30 Dann wird ermittelt/ ob der RFID-Tag Zieladressangaben ent- 

halt 2 . Wurden aus dem RFID-Tag keine Zieladressangaben iden- 
tifiziert und gelesen, so erfolgt die normale Weiterverarbei- 
tung der Sendung 3, d.h. OCR-Lesen, Sortieren nach Sortier- 
planen usw. Enthalt der RFID-Tag Adressangaben, wird automa- 
35 tisch festgestellt, ob sie in Textform vorliegen oder 

nicht 4. Wenn ja, werden die Bilddaten dieser Sendung als 
Ist-Daten zusammen mit den zugehorigen Zieladressangaben in 
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Textform als Soll-Daten in einer Stichprobendatenbank gespei- 
chert 6, so dass diese Datenbank stets aktuelle Stichproben 
enthalt. Wurden die Zieladressangaben in kodierter Form im 
RFID-Tag gespeichert, so erfolgt mit Hilfe einer Adressdaten- 
5 bank die Umwandlung in die Textform 5/ die dann in die Stich- 
probendatenbank eingegeben wird. Dabei werden alle Varianten, 
die unter der Kodeangabe im Adressworterbuch gespeichert 
sind, in die Stichprobendatenbank libernommen. 1st eine be- 
stimmte Anzahl von neuen Eintragen oder eine bestimmte Zeit- 
10 spanne seit der letzten Optimierung liberschritten, wird ein 
Signal zur erneuten Optimierung des OCR-Lasers abgegeben 7. 
Auf diese Art und Weise wird also die Lern- und Teststichpro- 
be fiir die OCR-Leser automatisch und ohne manuellen Aufwand 
im Lesebetrieb aktuell gehalten. 



15 
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Pat ent anspruche 

1. Verfahren zum Erzeugen und/oder Aktualisieren von Lern- 
und/oder Teststichproben fur die Optimierung von automa- 
tischen optischen Lesern fur Sendungsauf schrif ten mit 
adaptiven Klassif ikatoren, gekennzeichnet 

d u r c h die Schritte: 

- Lesen von drahtlos lesbaren und beschreibbaren, auf 
Oder in der Sendung befindlichen Speichereinheiten zu- 
satzlich zum automat ischen optischen Lesen, 

- wenn aus einer Speichereinheit Zieladressangaben iden- 
tifiziert und gelesen wurden, abspeichern dieser Daten 
als Zieladresssolldaten zusammen mit dem auf genommenen 
Abbild der Sendungsoberf lache in einer Stichprobenda- 
tenbank. 

2 . Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet , dass ein Signal zur Optimierung des au- 
tomat ischen optischen Lesers erzeugt wird, wenn eine be- 
stimmte Anzahl von automatisch erzeugten Eintragen in der 
Stichprobendatenbank erreicht ist und/oder eine festge- 
legte Zeitspanne seit der vorherigen Optimierung uber- 
schritten wurde. 

3 . Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet , dass die Speichereinheiten als RFID- 
Tag/Transponder ausgefiihrt sind. 

4. Verfahren nach Anspruch 1, dadurch gekenn- 
zeichnet , dass bei Vorliegen der Adressdaten in 
kodierter Form automatisch der Adresstext aus einem Ad- 
ressworterbuch mit alien Varianten ermittelt wird und in 
die Stichprobendatenbank eingetragen wird. 



wo 2005/038701 



PCT/EP2004/009963 



1/1 



LESEN DER RFID-TAGS UNO 
AUFNEHMEN DER SENDUNGS- 
OBERFLACHEN DER IN DAS 
VERTEILSYSTEM EINGE- 
GEBENEN SENDUNGEN 



1 



NEIN 




NORMALE OCR- 
VERARBEITUNG 



NEIN 



3 




UMFORMEN DER 
ADRESSANGABEN 
MIT WORTERBUCH 
IN TEXTFORM 
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ABSPEICHERN MIT DEN 
ZUGEHORIGEN BILD- 
DATEN IN STICHPROBEN- 
DATENBANK 
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ABGABE EINES SIGNALS 
ZUR OPTIMIERUNG DES 
OCR-LESERS, WENN 
BESTIMMTE ANZAHL 
VON NEUEN EINTRAGEN 
ODER ZEITSPANNE 
OBERSCHRITTEN 
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